نويسنده: ديويد هند
برگردان: بصير والي



 

مثال 1: جلوگيري از هرزنامه ها (1) ( اسپم ها )

اسپم به ايميل هاي ناخواسته با تعداد انبوه گفته مي شود که به صورت خودکار به ميليون ها کاربر در سراسر جهان فرستاده مي شود. اين پيغام ها اغلب تبليغاتي بوده و حتي ممکن است کلاهبرداري نيز باشند. اين ايميل ها معمولاً شامل پيشنهاد راه هاي سريع ثروتمند شدن، نسخه هاي پزشکي و دارويي، راهنمايي هاي بازارهاي مالي و راهنمايي هاي مشکوک جنسي مي باشند. قاعده ي پشت مطلب اين است که اگر به تعداد کافي به افراد ايميل بزنيد، بعضي از آنها علاقه مند خواهند شد و پيشنهادات را مي پذيرند. به جز ايميل هايي که از سوي سازمان هاي خاص براي دريافت اطلاعات صادر مي شود بقيه اغلب مورد توجه نيستند و هيچ کس تمايل ندارد وقت خود را صرف خواندن و پاک کردن اين ايميل ها بکند. به همين دليل فيلترهايي به نام فيلترهاي اسپم به وجود آمده اند. اين فيلترها برنامه هاي کامپيوتري هستند که به صورت خودکار پيغام هاي درون ايميل را بررسي مي کنند و تشخيص مي دهند که اين ايميل اسپم است يا نه. مي توان اين فيلترها را طوري برنامه ريزي کرد که پيغام هاي مشکوک را به پوشه هاي مناسب هدايت کنند تا بعداً آنها را بررسي کنيم يا اعمال مناسب ديگري روي آنها انجام دهيم. درباره ي اسپم هايي که به طور روزانه ارسال مي شوند آمار دقيقي وجود ندارد. اما در زمان نگارش اين کتاب اين تخمين وجود دارد که روزانه بيش از نود ميليارد اسپم در سراسر دنيا منتشر مي شوند و از آنجا که اين عدد ماه به ماه به صورت قابل توجهي در حال افزايش است ممکن است زماني که شما اين کتاب را مي خوانيد اين عدد بسيار بسيار بزرگ تر شده باشد.
راه هاي گوناگوني براي جلوگيري از اين هرزنامه ها وجود دارد. در ساده ترين حالت به دنبال کلمات کليدي خاصي در اين ايميل ها هستيم براي مثال اگر پيغامي شامل کلمه ي viagra بود ممکن است مانع ورود آن شويم. تشخيص اسپم، زمينه اي کاملاً رقابتي است. به محض اينکه هرزنامه نويس ها پي مي برند پيغامشان توسط يک روش خاص فيلتر شده به دنبال راهي مي گردند تا از آن روش و از آن فيلتر عبور کنند. به عنوان مثال ممکن است عمداً به جاي کلمه ي viagra ، کلمه ي vlagra يا v- iagra را به کار ببرند. و اين در حالتي است که افراد متوجه معني اين کلمات مي شوند اما برنامه هاي کاميپوتري خودکار اين کلمات را تشخيص نمي دهند.
فيلترهاي پيشرفته از ابزارهايي استفاده مي کنند که بر پايه ي مدل هاي آماري بنا شده اند. مدل هايي که محتواي اين هرزنامه ها را در نظر مي گيرند. براي مثال اين فيلترها تخميني از احتمال اينکه کلمه يا کلمات خاصي در هرزنامه وجود داشته باشد در نظر مي گيرند و سپس پيغامي که تعداد زيادي از کلمات با احتمال بالا را در برداشته باشد به عنوان هرزنامه معرفي مي کند. مدل هاي احتمالاتي ديگري نيز وجود دارند که احتمال پشت سر هم قرار گرفتن کلمات را در نظر مي گيرند و به کمکشان قادريم مجموعه اي از کلمات و عبارات مشکوک را پيدا کنيم. روش هاي ديگري هم وجود دارند که از مدل هاي آماري براي تصاوير استفاده مي کنند و از اين طريق به تشخيص پيغام هاي مزاحم مي پردازند.

مثال 2: ماجراي سالي کلارک

در سال 1999 يک وکيل جوان انگليسي به نام سالي کلارک به جرم قتل عمد دو پسر خود به حبس ابد محکوم شد. فرزند اول در سال 1996 در سن 11 هفتگي و فرزند دوم در سال 1998 در 8 هفتگي از دنيا رفتند. رأي هيأت منصفه در اين باره درس عبرتي درباره ي کج فهمي و استفاده اشتباه از آمار شد. اين اتفاق زماني رخ داد که آقاي روي ميدو متخصص اطفال به عنوان کارشناس پرونده ادعا کرد احتمال مرگ دو کودک در اثر بيماري کات دس (2) يک در هفتاد و سه ميليون است. او اين عدد را به سادگي از ضرب احتمال وقوع اين دو رخداد به صورت جداگانه به دست آورده بود. در حالي که به علت نداشتن اطلاعات کافي اين حقيقت را در نظر نگرفته بود که در يک خانواده، با وقوع اين بيماري براي اولين بار، احتمال وقوع آن براي بار دوم بسيار افزايش پيدا مي کند.
تحقيقات قبلي نشان مي دادند، احتمال آنکه کودکي به صورت تصادفي در خانواده اي مثل خانواده ي کلارک جان خود را بر اثر اين بيماري از دست بدهد حدود يک در هشت هزار و پانصد است. حال اگر فرض کنيم، وقوع اين رخداد، احتمال وقوع ديگري را تغيير نمي دهد، در اين صورت احتمال اينکه در يک خانواده دو نفر بر اثر اين بيماري جان خود را از دست دهند برابر يک مي باشد که در حدود يک در هفتاد و سه ميليون است. اما اين فرض، اشتباه بزرگي است. تحليل هاي آماري دقيق نشان مي دهد، احتمال چنين مرگ و ميري پس از وقوع آن براي اولين بار بسيار افزايش پيدا مي کند. در واقع محاسبات نشان مي دهد در کشوري به اندازه ي انگلستان بايد سالانه شاهد چندين مورد از اين مرگ و ميرهاي چندگانه باشيم. در سايت سازمان بررسي علل مرگ ومير کودکان چنين آمده است. به ندرت پيش مي آيد دو نفر در يک خانواده به علت کات دس جان خود را از دست بدهند. اما گاهي ممکن است به علت اختلالات موروثي از قبيل نقص متابوليک شاهد اين پديده باشيم.
در اين ماجرا مدارک ديگري نيز وجود داشتند که بي گناهي خانم کلارک را نشان مي دادند. سرانجام مشخص شد که فرزند دوم او يک بيماري باکتريايي داشته و بدين ترتيب مستعد مرگ ناگهاني بوده است، خانم کلارک در سال 2003 با رأي شوراي استيناف آزاد شد و در ماه مارس 2007 در سن 42 سالگي به طرز غم انگيزي از دنيا رفت. توضيحات بيشتر درباره ي اين اشتباه وحشتناک در مقاله ي خانم هلن در وب سايتي که در انتهاي مقاله ها براي مطالعه ي بيشتر وجود دارد آمده است.

مثال 3: خوشه هاي ستارگان

با افزايش توانايي ما براي کاوش در ميان کهکشان ها اين حقيقت آشکار شد که اجرام فضايي تمايل دارند به صورت مجموعه اي و سلسله مراتبي شکل بگيرند. بدين ترتيب که ستاره ها، خوشه ها را مي سازند، خوشه هاي ستارگان نيز به نوبه ي خود خوشه هاي بزرگ تر را پديد مي آورند و بدين ترتيب يکي پس از ديگري ساخته مي شوند. براي مثال کهکشان ما که خوشه اي از ستاره هاست، عضوي از مجموعه اي است که حدود سي کهکشان دارد و اين سي کهکشان خود عضوي از يک خوشه ي بسيار بزرگ تر هستند. در مقياس بزرگ تر دنياي ما شبيه حبابي است که در لايه ي بيروني آن و خارج از فضاي بسيار بزرگ درون آن رشته هايي از اَبَر خوشه ها وجود دارند. اما چگونه چنين مطلبي را کشف کرديم؟ حتي اگر قوي ترين تلسکوپ ها را به کار ببريم باز هم فقط آسماني پر از ستاره خواهيم ديد. پاسخ اين است که کار کردن با اين ساختارهاي خوشه اي و در واقع کشف جزئيات آن به تکنيک هاي آماري نياز دارد. يک دسته از اين تکنيک ها شامل محاسبه فاصله ي بين هر ستاره با نزديک ترين ستاره ها به آن است. ستاره هايي که بيش از آنچه انتظار داريم در نزديکيشان ستاره وجود دارد احتمالاً در يک منطقه متراکم مثل يک خوشه هستند.
البته کار به اين سادگي ها هم نيست. ابرهاي غبار بين هسته اي در فضا به صورت يکنواخت پخش نشده اند. و باعث بروز خطا در اندازه گيري فاصله ها مي شوند. از طرفي اجسام کم نور فقط زماني ديده مي شوند که به اندازه ي کافي نزديک زمين باشند. يک رشته باريک از کهکشان ها که از زمين ديده مي شود، مي تواند يک خوشه ي بسيار متراکم باشد. براي پي بردن به حقايقي که در پس اين اشياء ظاهري وجود دارد به اصلاحات آماري پيچيده اي نياز داريم.
درک ساختار جهان هستي باعث مي شود بفهميم که چگونه به وجود آمده و در آينده چگونه گسترش خواهد يافت.

مثال 4: ساخت مواد شيميايي

قبلاً گفتيم آماردان ها مي توانند کارهاي بزرگي انجام دهند ولي قادر به معجزه نيستند. به طور خاص کيفيت نتايج کار آن ها بستگي به کيفيت داده ها دارد. با در نظر گرفتن مسئله، نکته ي جالب اينجاست که زير نظام هايي در آمار وجود دارند که کارشان يافتن روش هاي جمع آوري بهترين داده هاست. يکي از اين روش ها، طراحي تجربي (3) يا طراحي عملي است. تکنيک هاي طراحي عملي مربوط به شرايطي است که مي توان بعضي از متغيرهاي مورد مطالعه را تغيير داد و کنترل کرد. براي مثال در فرآيند توليد يک پليمر خاص مي توان فشار، دما، و زمان واکنش شيميايي را به دلخواه تنظيم کرد. تغيير در مقدار اين سه متغير در نهايت منجر به تغيير کيفيت محصول نهايي مي شود. اما سؤال اين است که بهترين مجموعه براي مقادير اين متغيرها چيست؟
به کمک طراحي تجربي مي توان بيشترين اطلاعات را از منابع در دسترس به دست آورد.
در حالت کلي پاسخ اين سؤال ساده است. به سادگي مجموعه اي از پليمرها را با در نظر گرفتن مقادير مختلف براي متغيرهاي آن توليد مي کنيم. بدين ترتيب مي توانيم، منحني هاي پاسخ را بيابيم. منحني هايي که کيفيت پليمر حاصل شده را نسبت به هر دسته از مقادير نشان مي دهد. در نهايت بهترين کيفيت و مقادير متغيرهاي متناظر با آن را در نظر مي گيريم.
اما اگر فرآيند مورد نظر طوري باشد که براي توليد هر محصول مجبور باشيم چند روز زمان صرف کنيم ديگر پيدا کردن متغيرها از اين روش امکان پذير نيست. مثلاً اگر توليد هر محصول 3 روز طول بکشد و بخواهيم 100 نمونه براي اين آزمايش توليد کنيم تقريباً يک سال زمان مي برد. خوشبختانه طراحي هاي هوشمندانه تري هم وجود دارند که با مجموعه هاي کوچک تر از اعداد که به دقت انتخاب شده اند. تقريباً به همان اطلاعات خواهيم رسيد. گاهي اوقات تعداد نسبتاً کمي آزمايش، اطلاعات کافي در اختيارمان قرار مي دهند تا بهترين مقادير را براي متغيرها به دست آوريم.

مثال 5: ميزان رضايتمندي مشتريان

براي اداره ي مؤثر يک مجموعه ي خرده فروشي و رسيدن به سود دلخواه و رشد در طول زمان بايستي به اندازه ي کافي به مشتريان، محصولات و سرويس هايي که مي خواهند توجه کنيم. در غير اين صورت اين مشتريان به سراغ رقيباني خواهند رفت که کالاي مورد نظرشان را تأمين مي کنند و نتيجه ي اين شکست، کاهش درآمد و سود خواهد بود. راه جلوگيري از اين شکست جمع آوري اطلاعاتي است که به کمک آن ها بدانيم مشتريان قبل از اينکه هزينه اي بکنند چه چيزهايي را مد نظر قرار مي دهند. مي توان با پرسش از مشتريان ميزان رضايتمندي آنان را برآورد کرد و فهميد که آيا از محصولات و سرويس هاي ارائه شده راضي هستند يا نه، و اينکه اين رضايتمندي چگونه مي تواند افزايش پيدا کند.
در نگاه اول به نظر مي آيد براي رسيدن به جوابي مطمئن که رفتار همه ي مشتريان را منعکس مي کند بايد از همه ي آنها نظرسنجي کنيم. واضح است که اين کار بسيار زمان گير و هزينه بر خواهد بود. خوشبختانه روش هاي آماري وجود دارد که به کمک آنها مي توانيم فقط با نظرسنجي از تعداد محدودي از مشتريان به نتايج دقيقي برسيم. در واقع اين نتايج ممکن است حتي گاهي دقيق تر از زماني باشند که همه ي مشتريان را در نظرسنجي سهيم مي کنيم. البته در اين سنجش ها بايد نهايت دقت صورت بگيرد. همين طور بايستي مراقب باشيم نتيجه گيري هايمان بر پايه ي يک فضاي نمونه ي نامناسب از مشتريان شکل نگيرد. مثلاً اگر فقط مجموعه اي از مشتريان که پول زيادي براي خريد خرج مي کنند را بررسي کرده باشيم، نتايج به دست آمده براي درک رفتار مشتريان در حالت کلي، چندان کاربردي ندارند. مجدداً يادآوري مي کنم روش هاي آماري توسعه يافته اي وجود دارند که جلوي چنين اشتباهاتي را مي گيرند و نتايج درست و قابل اطميناني به دست مي دهند.

مثال 6: کشف کلاهبرداري هاي بانکي

نقل و انتقالات بانکي تماماً به صورت قانوني صورت نمي گيرند. افراد کلاهبرداري وجود دارند که به سرمايه هاي بانک و سپرده هاي مردم دستبرد مي زنند. از اين رو کشف و جلوگيري از اين کلاهبرداري ها از اهميت ويژه اي برخوردار است. ممکن است بسياري از خوانندگان با تماس هايي از طرف بانک هاي خود مواجه شده باشند که مثلاً آيا يک نقل و انتقال خاص را انجام داده اند يا نه؟ اين تماس ها معمولاً بر اساس پيش بيني هايي که مدل هاي آماري ارائه مي دهند و در آن رفتار نرمال مشتري ها توصيف مي شود، انجام مي شوند. وقتي رفتاري نامتعارف صورت مي گيرد احتمال بروز موردي مشکوک وجود دارد و بايد آن را بررسي کرد.
براي اين کار مدل هاي گوناگوني وجود دارد. بعضي از اين مدل ها بر پايه ي الگوهاي رفتاري هستند که به خودي خود مشکوک مي باشند، مثلاً استفاده ي همزمان از يک کارت در دو نقطه که به لحاظ جغرافيايي با هم فاصله زيادي دارند. مدل هاي ديگري نيز وجود دارند که داراي جزئيات بيشتري هستند و بر اساس رفتاري که افراد بر حسب عادت از خود نشان مي دهند عمل مي کنند، مثلاً به اينکه افراد چه موقع، چه مقدار، براي چه محصولي و در چه نوع فروشگاه يا حراجي پول هزينه مي کنند، حساسند.
البته هيچ مدل پيشگويي کامل نيست. معمولاً بلافاصله پس از اينکه شخصي خريد غير منتظره اي انجام دهد، الگوي نقل و انتقالات کارت اعتباري اش تغيير مي کند. علاوه بر اين، تنها درصد کمي از نقل و انتقالات کلاهبرداري هستند. چيزي در حدود يک هزارم و اين کار تشخيصشان را بسيار مشکل مي کند.
تشخيص و جلوگيري از اين کلاهبرداري ها يک جنگ هميشگي است: وقتي يکي از اين راه هاي دزدي مسدود مي شود، فرد کلاهبردار راه و روش خود را عوض نمي کند و سراغ کسب و کاري قانوني نمي رود، بلکه به دنبال روش هاي ديگري براي دزدي و کلاهبرداري مي گردد، بنابراين مدل هاي آماري هميشه بايد در حال توسعه و بهبود باشند.

مثال7: تورم

همه ي ما با اين مسئله آشنا هستيم که قيمت ها به مرور زمان افزايش پيدا مي کند اما چگونه مي توانيم هزينه زندگي امروز را با گذشته مقايسه کنيم. براي اينکار بايد قيمت يک کالاي خاص را در زمان فعلي و گذشته با هم مقايسه کنيم. متأسفانه پيچيدگي هايي وجود دارد. مثلاً فروشگاه هاي مختلف براي يک کالاي خاص، قيمت هاي متفاوتي ارائه مي دهند. افراد مختلف، کالاهاي مختلفي را خريداري مي کنند. حتي يک فرد خاص هم الگوي خريد خود را تغيير مي دهد. محصولات جديد در فروشگاه ها عرضه مي شوند و محصولات قديمي به مرور زمان ديگر يافت نمي شوند. اما چگونه مي توانيم تشخيص دهيم که زندگي امروز پر هزينه تر است يا گذشته؟
اقتصاددان ها و آماردان ها شاخص هايي ارائه مي دهند که به کمک آنها هزنيه زندگي را اندازه مي گيريم. مثلاً شاخص قيمت خرده فروشي (4) و شاخص قيمت مصرف کننده. (5) اين شاخص ها بر پايه ي يک سبد ملي شامل ( صدها ) کالا که افراد خريداريشان مي کنند. محاسبه مي شوند. در حالي که هميشه برآوردهايي براي قيمت هر کدام از اين کالاها و وزنشان در سبد کالا انجام مي شود. مدل هاي آماري توسعه يافته، قيمت اقلام مختلف کالاها را با هم ترکيب مي کنند، تا يک عدد کلي به دست دهند. عددي که در طول زمان معيار مقايسه قرار مي گيرد. معياري که علاوه بر اينکه شاخصي براي تورم است، براي تعيين ميزان ماليات، دستمزد و حقوق مورد استفاده قرار مي گيرد.

نتيجه گيري

ممکن است اين مسئله هميشه براي افراد بي اطلاع روشن نباشد، اما نظام آماري در متن اکتشافات علمي، فعاليت هاي تجاري، اداره حکومت ها، سياست هاي اجتماعي، کارخانه داري و توليدات، پزشکي و اغلب ديگر جنبه هاي فعاليت بشر قرار مي گيرد. علاوه بر اين با پيشرفت دنيا اين نقش مهم و مهم تر مي شود. براي مثال پيشرفت شاخه هاي جديد پزشکي مستلزم همکاري آماردان هاست.
چنين پديده اي امروزه در صنعت بانکداري هم در حال وقوع است. جايي که توافق نامه هاي بين المللي به مدل هاي آماري براي ريسک احتياج دارند. با توجه به اين نقش محوري کاملاً روشن است که هيچ جامعه ي پيشرفته اي نبايد از قوانين پايه اي آمار بي اطلاع باشد.
آمار نوين به همراه ابزارهاي نرم افزاري توسعه يافته اش براي جست وجو و پردازش داده ها، کمک مي کند تا قلمروهاي هيجان انگيز جديدي را جست وجو کنيم. در حقيقت تشخيص اينکه آمار ابزاري براي جست و جوي مجهولات است و نه يک سري محاسبات طاقت فرساي رياضي، اهميت زيادي دارد.

پي‌نوشت‌ها:

1. Spam
2. نوعي مرگ ناگهاني که هنگام خواب و اغلب براي کودکان رخ مي دهد. cot death.
3. experimental design.
4. Retail Price lndex.
5. Consumer Price lndex

منبع مقاله :
هند، ديويد جي؛ (1391)، آمار، ترجمه ي بصير والي، تهران: انتشارات حکمت، چاپ اول